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摘要 : 【 目的 ] 制定 专题 专利 预警 平台 建设 方案 , 为 长 期 的 专题 跟踪 预警 分 析 、 专 题 数据 再 利用 等 工作 提供 一 种 


解决 途径 。[ 方法 ] 平台 集成 开源 代码 平台 和 工具 (DSpace、OpenRefine、ECharts 、VOSviewer 等 ), 实现 对 专题 
数据 的 存储 、 跟 踪 、 分 类 、 清 洗 、 分 析 、 管 理 等 功能 。[ 结果 】 选 择 极 紫外 光 刻 技术 专题 进行 应 用 实践 , 测试 并 
解决 实践 过 程 中 的 细节 问题 , 验证 专题 专利 预警 平台 的 可 行 性 和 有 效 性 。[ 局 限 】 目 前 的 专题 专利 预警 平台 数据 


处 理 全 自动 化 、 数 据 分 析 指 标 化 、 内 容 挖掘 的 关联 实现 等 方面 需要 进一步 优化 。[ 结论 ] 专题 专利 预警 平台 所 实 
现 的 功能 , 对 于 在 技术 研发 生命 周期 内 进行 技术 专利 及 时 跟踪 预警 并 分 类 管理 有 着 现实 的 意义 。 
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专利 信息 对 经 济 社会 发 展 和 企业 创新 活动 有 着 重 
要 的 支撑 作用 。 专 利 预警 通过 检索 和 分 析 专 利信 息 ， 
对 可 能 面临 的 专利 风险 进行 研究 和 预测 ， 从 而 支撑 应 
对 策略 中 ,专利 预警 的 相关 利益 主体 大 至 区 域 国 家 小 
到 研发 团队 。 在 技术 创新 和 产业 发 展 生命 周期 中 , 利 
益 主 体 需 要 及 时 敏锐 地 捕捉 相关 专利 信息 , 分 析 和 预 
测 专利 风险 并 做 出 风险 应 对 。 

由 于 贯穿 于 技术 创新 和 产业 发 展 生命 周期 专利 风 
险 是 动态 变化 的 , 利益 主体 针对 特定 创新 专题 进行 专 
利 预警 工作 是 有 时 效 性 的 。 从 专利 检索 到 专利 分 析 ， 
从 风险 捕获 到 风险 评估 ， 人 工 专利 预警 工作 无 法 实时 
监测 专利 信息 ,过 程 专 利 数据 往往 仅 实现 一 次 性 利用 ， 
这 些 弊 端 阻碍 了 专利 预警 的 时 效 性 及 专利 数据 的 再 利 
用 。 专 利 数据 作为 专利 信息 的 主要 载体 , 在 专利 预警 
工作 中 的 有 效 利 用 至 关 重 要 。 在 数字 化 的 今天 ,网 络 
日 益 成 为 科技 交流 和 传播 最 重要 渠道 ,利用 网 络 平台 
及 时 跟踪 专利 信息 实现 专利 预警 有 着 现实 的 意义 。 


了 中 


笔者 在 使 用 和 调研 国内 外 相关 系统 平台 中 发 现 : 

(1) 专利 分 析 平 台 , 可 较 好 地 满足 单 次 专利 分 析 
需求 , 但 对 于 专利 预警 来 说 功能 较为 分 散 ， 有 些 平台 
可 实现 部 分 预警 分 析 的 功能 , 但 是 存在 专题 创建 不 灵 
活 、 定 制 化 程度 不 高 、 或 者 无 法 实时 跟踪 等 不 同 功 能 
的 缺失 。 如 , Thomson Innovation 平台 可 以 通过 创建 预 
警 实现 某 个 专题 的 数据 跟踪 但 无 法 进行 数据 清洗 、 分 
类 管理 等 。Orbit 分 析 平 台 可 以 通过 创建 工作 文件 夹 对 
国定 专利 数据 集 进 行 数 据 清洗 、 分 析 , 但 无 法 实时 跟 
踪 、 分 类 管理 。 

(2) 企业 竞争 情报 系统 ,基本 遵循 情报 搜集 、 情报 
分 析 、 情 报 服务 的 逻辑 框架 ,数据 源 庞杂 , 非 结构 化 信 
息 占 据 主 力 , 但 专题 专利 预警 的 针对 性 不 足 ， 并 不 重 
视 多 来 源 数据 的 清洗 。 如 , 谷 尼 竞 争 情报 系统 对 各 种 信 
息 源 进行 全 面 整合 和 利用 , 绿 合 对 比 提供 企业 竞争 情 
报 资讯 , 但 是 对 于 技术 研发 创新 来 说 信息 过 于 庞杂 。 

(3) 自主 建设 平台 , 根据 专利 管理 体系 、 专 利 情 报 
分 析 体系 、 专 利信 息 价值 体系 等 自主 建设 相关 平台 ， 
如 ,中 国 科 学 院 计 算 技术 研究 所 开发 的 专利 价值 分 析 
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与 评级 电子 系统 从 专利 价值 评 佑 、 发 明 人 自 评 、 专 家 
评审 等 角度 进行 设计 与 开发 。 

针对 上 述 问题 , 本 文 提 出 一 个 专题 专利 预警 平台 
的 实现 方案 , 该 平台 根据 利益 主体 对 技术 创新 及 管理 
的 具体 需求 建立 , 并 有 效 结合 专利 情报 分 析 流 程 ， 可 
实现 技术 或 产业 链 各 环节 的 定制 化 的 专利 分 类 管理 和 
预警 ,数据 主体 既 可 以 是 整个 行业 的 专利 数据 集合 ， 
也 可 以 是 某 一 具体 产品 或 技术 的 专利 数据 集合 。 在 功 
能 上 , 利益 主体 利用 该 平台 可 以 形成 专题 专利 数据 
集 、 分 类 管理 研发 关键 技术 、 监 测 最 新 技术 发 展 动向 、 
了 解 竞争 对 手 的 技术 水 平等 ,实现 专利 预警 分 析 及 专 
利 数据 的 再 利用 。 在 技术 上 , 基于 该 方案 集成 开源 代 
码 平台 和 工具 并 开发 实现 专题 专利 数据 的 存储 、 跟 踪 、 
分 类 、 清 洗 、 分 析 、 管 理 等 功能 模块 ,节约 了 系统 开 
发 的 时 间 和 经 济 成 本 。 


2 专题 专利 预警 平台 建设 方案 设计 及 实现 


专利 数据 作为 专利 信息 的 主要 载体 ,也 是 专利 预 
和 警 工 作 的 主要 分 析 对 象 。 专 利 数据 的 开放 性 为 本 专利 
预警 平台 的 和 采集、 整理 、 加 工 提 供 了 实现 基础 。 专 利 
预警 需要 全 面 及 时 跟踪 专利 信息 ,专利 数据 的 开放 资 
源 众多 , 不 同 资源 的 元 数据 及 内 容 格式 并 不 统一 。 专 
题 专 利 预 警 平台 需要 通过 对 人 研发 专题 的 定制 实现 专题 
数据 的 自动 采集 ， 从 不 同 的 专利 信息 资源 中 , 匹配 制 
定 内 容 且 结构 化 抽取 专利 元 数据 信息 ,同时 实现 本 地 
存储 。 专 利 预警 平台 需要 通过 统一 定制 的 元 数据 实现 
不 同 来 源 专 利 数据 的 归 一 化 并 可 通过 设置 专利 数据 的 
唯一 项 进行 数据 去 重 , 具备 数据 处 理 功 能 实现 内 容 格 
式 的 统一 性 ， 从 而 帮助 利益 主体 实现 专利 信息 的 动态 
捕捉 、 跟 踪 ,， 并 为 预警 分 析 提 供 良 好 的 数据 质量 。 专 
题 专利 预警 平台 的 功能 框架 如 图 1 所 示 , 基于 这 一 杠 
架 重 点 完成 预警 平台 的 5 项 功能 : 专题 定制 、 数 据 采 
集 、 自 动 分 类 、 数 据 处 理 、 数 据 分 析 。 

(1) 专题 定制 是 指 对 需要 预警 的 目标 进行 定制 ， 
通过 制定 完善 的 检索 策略 实现 专题 定制 。 在 制定 检索 
策略 之 前 需要 进行 充分 的 准备 工作 ,如 专题 领域 调 
研 、 主 题词 多 样 性 调研 、 目 标 专利 资源 预 检索 、 检 索 
策略 调整 修正 等 ,检索 策略 的 完备 性 直接 影响 后 续 跟 
踪 数 据 的 有 效 性 。 利 益 主 体 通过 专题 定制 实现 所 需 专 
题 的 个 性 化 跟踪 预警 。 
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图 1 专题 专利 预警 平台 的 功能 框架 


(2) 数据 采集 是 指定 期 对 目标 专利 资源 进行 采集 ， 
构建 一 系列 可 分 布 部 署 的 网 络 定向 采集 器 实现 对 目标 
专利 资源 的 精准 采集 叫 。 数 据 采集 阶段 将 目标 专利 资源 
的 元 数据 项 进行 归 一 化 处 理 ,， 实 现 不 同 来 源 数据 的 描 
述 统一 化 , 并 通过 专利 数据 唯一 项 进行 数据 去 重 。 利 益 
主体 通过 数据 采集 实现 定制 研发 专题 的 实时 跟踪 。 

(3) 自动 分 类 是 指 对 采集 到 的 信息 进行 定制 化 分 
类 处 理 。 通 过 制定 完善 的 匹配 策略 实现 主题 分 类 管理 ， 
对 于 每 一 条 采集 到 的 专利 信息 进行 主题 识别 , 并 自动 
分 配 到 相应 的 主题 分 类 里 , 同时 实现 专利 信息 的 自动 
标 引 。 利 益 主 体 通过 自动 分 类 实现 定制 专题 的 分 类 跟 
踪 及 管理 。 

(4) 数据 处 理 是 指 对 采集 到 的 专利 信息 进行 数据 
处 理 , 包括 数据 清洗 、 格 式 处 理 等 。 专 利信 息 资 源 的 
多 元 化 导致 著录 格式 不 统一 ,数据 采集 阶段 对 元 数据 
进行 归 一 化 命名 处 理 , 但 采集 到 的 专利 信息 著录 规则 
存在 多 样 性 ,数据 处 理 阶段 的 目的 之 一 是 将 著录 格式 
统一 化 。 未 经 清洗 的 数据 普遍 存在 命名 不 规范 ， 如 
IBM 公司 可 能 存在 IBM、IBM Corp.、International 
Business Machines Corporation 各 种 形式 的 写法 , 且 存 
在 下 属 公司 、 各 地 区 分 公司 以 及 其 他 法 人 机 构 ， 如 不 
通过 数据 清洗 加 以 规范 , 针对 申请 人 的 跟踪 预警 分 析 
则 失去 准确 性 , 因此 数据 处 理 阶 段 的 另 一 个 目的 是 实 
现 数据 清洗 。 利 益 主 体 通 过 数据 处 理 规则 的 保存 实现 
预警 信息 的 规范 有 效 性 。 

(5) 数据 分 析 提 供 面 向 利益 主体 的 自动 预警 分 析 
服务 。 通 过 上 述 一 系列 工作 , 数据 分 析 阶 段 呈现 包括 
重点 机 构 的 跟踪 、 重 要 发 明 人 的 揭示 、 热 点 主题 的 揭 
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示 等 服务 , 同时 利益 主体 可 根据 需求 实现 多 角度 的 分 
析 ， 深 度 发 掘 预警 信息 。 


3 ”专题 专利 预警 平台 的 关键 技术 实现 方法 


根据 专题 专利 预警 平台 的 功能 框架 ,基于 开源 软 
件 DSpace 4.25 进行 扩展 开发 ,并 集成 开源 软件 
OpenRefine 、ECharts 及 VOSviewer 实现 相关 的 功能 。 
DSpace 是 基于 Java 的 开源 系统 , 其 具有 完善 的 元 数据 
定义 、 数 据 的 本 地 化 分 层 存 取 、 数 据 的 索引 与 检索 , 成 
为 专题 专利 平台 开发 建设 的 首选 系统 。 基 于 DSpace 
的 元 数据 功能 ,专题 专利 预警 平台 对 监测 的 目标 数据 
字段 进行 统一 规范 。DSpace 的 社 群 (Community) 和 集 
合 (Collection) 为 专题 专利 预警 平台 的 分 类 管理 提供 了 
技术 实现 基础 。 为 了 实现 更 加 准确 的 预警 分 析 , 专题 
专利 预警 平台 需要 对 采集 后 的 数据 进行 规范 化 处 理 ， 
OpenRefineD 的 数据 处 理 功 能 及 开源 性 成 为 实现 数据 
处 理 功 能 的 首选 , 平台 集成 OpenRefine 实现 对 采集 数 
据 的 清洗 、 处 理 以 及 处 理 规 则 的 保存 。DSpace 系统 提 
供 一 维 的 统计 分 析 , 平台 通过 二 次 开发 实现 自 定义 多 
维 组 合 分 析 ， 从 而 拓宽 预警 深度 及 广度 ,并 集成 
ECharts 及 VOSviewer 实现 分 析 可 视 化 。 专 题 专 利 预 
警 平 台 的 技术 框架 如 图 2 所 示 : 


展示 层 

分 类 管理 数据 跟踪 分 析 导 航 
DSpace 
ew C ity& 人 
元 歼 据 舍 到 ET] | 到 必 区 | | 
数据 采集 及 处 理 


采集 配置 | | 定时 采集 | [自动 分 类 | | 数据 清洗 | [数据 分 析 


目标 监控 网 站 


图 2 专题 专利 预警 平台 的 技术 框架 
专题 专利 预警 平台 的 建设 过 程 中 要 解决 的 关键 点 
是 数据 的 定制 化 采集 、 自 动 分 类 、 数 据 清 洗 、 数 据 分 
析 4 个 关键 技术 。 关 键 技术 实现 流程 如 图 3 所 示 : 
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图 3 专题 专利 预警 平台 关键 技术 实现 流程 


3.1 数据 采集 

为 了 实现 全 面 的 监控 , 目标 专利 数据 可 能 来 源 于 
不 同 的 专利 信息 网 站 ,网 页 的 内 容 结构 差别 较 大 ， 同 
时 网 站 的 更 新 升级 也 会 导致 网 页 结构 的 变化 , 这 对 系 
统 的 适应 性 提出 了 较 高 的 要 求 。 专 利 预警 平台 需要 具 
备 灵活 的 分 析 能 力 , 针对 目标 专利 信息 资源 的 网 页 内 
容 进行 自动 分 析 和 采集 , 将 采集 的 数据 按照 事先 定义 
好 的 元 数据 进行 本 地 化 存储 。 系 统 主 要 采用 Apache 
的 HttpClient 模拟 浏览 器 的 功能 : 

(1) 采用 单 例 模 式 封装 HttpClient， 并 利用 Double 
Check 解决 在 多 线程 采集 时 创建 多 个 实例 的 问题 ,如 
图 3 所 示 的 初始 化 模拟 浏览 器 。 

(2) 利用 HttpClient 模拟 浏览 器 ,实现 采集 功能 。 


不 同 的 专利 信息 网 站 的 检索 规则 有 所 差别 , 将 事先 定 
制 好 的 检索 策略 按照 目标 专利 信息 资源 网 站 的 检索 规 
则 进行 检索 式 配 置 , 在 数据 采集 过 程 中 将 根据 配置 的 
检索 式 进 行 数据 检索 ,实现 过 程 与 人 工 检索 相似 。 
(3) 对 采集 的 HTML 格式 数据 采用 jsoup 组 件 进 

行 提取 , 通过 配置 HTML 元 素 选 择 器 与 DSpace 的 元 
数据 形成 一 一 对 应 关系 ,从 而 把 专利 信息 内 容 按 配置 
好 的 元 数据 格式 存储 到 本 地 。 
3.2 ”自动 分 类 

为 了 实现 技术 或 产业 链 各 环节 或 行业 各 分 支 的 分 
类 管理 和 预警 ,专利 预警 平台 的 自动 分 类 预警 功能 是 
必要 的 , 本 研究 中 采用 分 类 配置 实现 自动 分 类 管理 。 
分 类 配置 信息 采用 XML 的 方式 进行 存储 ， 并 与 
DSpace 中 的 社 群 (Community) 和 和 集合 (Collection) 进 行 
关联 ， 从 而 实现 数据 的 分 类 存储 。 首 先 通 过 社 群 
(Community) 实 现 技 术 或 产业 链 各 环节 或 行业 各 分 文 
的 预定 分 类 设置 , 便于 专利 预警 平台 的 前 端 展 示 。 其 
次 通过 集合 (Collection) 进 行 存 取 分 类 定义 ， 即 对 每 个 
存 取 分 类 设置 匹配 规则 ， 从 而 使 采集 到 的 数据 根据 定 
义 规 则 进行 分 类 存 取 从 而 实现 专利 数据 的 自动 分 类 。 
自动 分 类 的 实现 利用 了 DSpace 强大 的 搜索 功能 ， 对 
于 符合 预 设 分 类 规则 的 数据 , 利用 DSpace 的 内 置 应 
用 程序 接口 , 移动 到 相应 的 集合 (Collection) 里 去 。 
3.3 ”数据 处 理 

尽管 数据 采集 阶段 进行 了 元 数据 统一 化 处 理 , 但 


是 各 信息 网 站 的 数据 仍 存 在 著录 格式 不 统一 、 内 容 表 
达 不 统一 等 问题 , 因此 专题 专利 预警 平台 的 数据 处 理 
及 清洗 功能 必 不 可 少 。 数 据 处 理 开 源 工具 
OpenRefinets 1 迎合 了 需求 , 但 是 OpenRefine 的 数据 清 
洗 是 不 可 以 重复 的 , 一 次 的 数据 处 理 过 程 不 能 作为 模 
板 进行 下 一 次 数据 处 理 , 需要 对 其 进行 二 次 开发 , 实 
现 数据 清洗 模板 化 ， 以 便 对 更 新 的 监测 数据 自动 进行 
相同 数据 人 处理， 从 而 避免 了 重复 工作 。 

OpenRefine 是 基于 项 目的 数据 处 理 , 内 部 的 处 理 
记录 是 针对 数据 的 变化 , 并 没有 对 操作 步骤 进行 记录 ， 
因此 不 能 作为 通用 的 数据 处 理 规 则 。 经 分 析 发 现 
OpenRefine 的 数据 处 理 是 基于 命令 的 模式 进行 的 , 也 
就 是 每 个 操作 都 是 一 个 命令 , 这样 只 需要 对 每 个 命令 
操作 进行 持久 化 存储 ,就 可 以 记录 OpenRefine 的 操作 
步骤 , 然后 再 针对 存储 的 操作 步骤 ,针对 不 同 的 数据 


总 第 275 期 2016 年 第 10 期 


进行 回放 操作 ， 即 实现 了 利用 OpenRefine 进行 数据 处 
理 的 模板 化 。 
3.4 数据 分 析 

经 过 采集 、 分 类 、 清 洗 等 过 程 专利 数据 已 优质 地 
分 类 存储 在 专利 预警 平台 中 , 实现 专利 数据 的 及 时 跟 
踪 。 专 利 预警 平台 需要 数据 分 析 来 深度 发 据 专 题 专利 
言 息 达 到 多 维 预 警 效果 。DSpace 系统 可 实现 一 维 专利 
数据 分 析 ， 如 对 机 构 、 发 明 人 、 时 间 等 一 维 统计 分 析 ， 
为 了 增强 专利 预警 平台 的 数据 分 析 功 能 , 使 其 可 以 进 
行 多 维 组 合 分 析 , 本 研究 进行 了 二 次 开发 。 

专题 专利 预警 平台 利用 Solr 的 Facet 功能 作为 数 
据 分 析 的 开发 基础 。 一 维 统计 分 析 可 直接 利用 Sotr 的 
Facet 功能 ， 系统 开发 元 数据 显示 选择 功能 ， 从 而 实现 
前 端 界面 定制 化 显示 ,实现 定制 化 组 合 分 析 外 ,首先 需 
要 确定 分 析 维 度 。 其 次 在 系统 实现 上 , 针对 第 一 维度 
进行 统计 分 析 , 然后 基于 统计 出 的 数据 子 集 与 第 二 维 
度 进行 组 合 分 析 。 例 如 进行 主要 机 构 的 趋势 分 析 时 需 
要 确定 分 析 组 合 是 机 构 和 年 份 , 分 析 时 需要 对 机 构 进 
行 TOP 查询 ,取出 TOP 机 构 的 子 数据 集 ， 再 针对 该 子 
数据 集 利 用 Facet 的 统计 功能 , 分 析 其 年 度数 据 (可 以 
指定 时 间 区 间或 离散 值 ) 最 后 利用 系统 集成 的 
EChartst" 进行 组 合 分 析 可 视 化 。 专 题 专利 预警 平台 对 
内 容 的 文本 挖掘 进行 了 初探 , 集成 VOSviewer 上 进行 
主题 聚 类 分 析 , 但 目前 的 聚 类 与 数据 的 关联 性 不 足 ， 
也 是 下 一 步 工作 待 解决 的 问题 。 


4 专题 专利 预警 平台 的 应 用 实践 


以 极 紫外 光 刻 技术 专利 预警 平台 建设 实践 为 例 ， 
对 本 文 提 出 的 专利 预警 分 析 平 台 的 实现 加 以 说 明 , 极 
紫外 光 刻 技术 专利 预警 平台 可 实现 极 紫 外 光 刻 技术 专 
利 数据 的 自动 采集 、 实 时 更 新 、 数 据 清 洗 、 数 据 分 析 ， 
并 且 结 合 极 紫外 光 刻 技术 的 实际 需求 , 实现 了 自动 分 
类 功能 ， 如 图 4 所 示 。 

专题 专利 预警 平台 根据 专利 数据 特征 制定 了 统一 
的 元 数据 规则 (适用 于 不 同 来 源 的 所 有 专利 数据 )， 如 
图 5 中 名 称 、 元 数据 element、 元 数据 qualifier 等 对 于 
所 有 专利 数据 都 是 统一 的 。 不 同 来 源 的 数据 需要 配置 
针对 性 的 HTML 元 素 选 择 器 ， 从 而 将 其 与 本 平台 的 元 
数据 对 应 。 如 图 5 所 示 , 极 紫 外 光 刻 技术 专利 预警 平 
台 针 对 来 源 于 freepatentsonline 的 专利 数据 进行 元 数 
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(b) 首页 
图 4 极 紫外 光 刻 技术 专利 预警 平台 


据 配 置 从 而 实现 平台 数据 结构 的 统一 化 。 平 台 通过 


专利 申请 号 即 “Application Number” 作 为 唯一 标识 进 
行 数 据 去 重 处 理 , 在 此 阶段 原始 待 采集 数据 7 356 条 ， 
经 过 系统 去 重 后 的 数据 为 5787 条 。 平 台 实 时 监测 更 
新 数据 在 首页 最 新 提交 模块 呈现 , 实现 预警 跟踪 。 
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图 5 极 紫 外 光 刻 技术 专利 预警 平台 的 元 数据 配置 


根据 极 紫 外 光 刻 预警 平台 的 分 类 跟踪 、 管 理 需 求 
( 见 图 4(a))， 对 各 分 类 配置 相应 规则 ,如 图 6 所 示 。 从 
而 实现 专利 数据 的 自动 分 类 ， 对 于 规则 无 法 识别 的 数 
据 可 通过 人 工 判 读 进 行 补 充 。 极 紫外 光 刻 技术 的 分 类 
管理 可 在 首页 实现 导航 ( 见 图 4(b))。 
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图 6 极 紫 外 光 刻 技术 专利 预警 平台 的 
自动 分 类 配置 


良好 的 数据 是 得 到 精确 专利 预警 分 析 结 果 的 基 
础 ， 完 成 极 紫 外 光 刻 技术 专利 数据 采集 之 后 ,通过 本 
平台 的 数据 处 理 功能 进行 数据 清洗 , 得 到 统一 的 、 规 
范 的 数据 。 如 图 7 所 示 , 未 经 处 理 的 极 紫 外 光 刻 技术 
专利 数据 中 ,尼康 公司 拥有 的 专利 数量 为 148 件 , 经 
过 处 理 后 其 数量 变 为 266 件 , 可 见 未 经 处 理 的 数据 会 
误导 专利 预警 结果 。 本 专利 预警 平台 的 数据 处 理 过程 
会 自动 保存 , 如 图 7 所 示 , 以 便 后 续 实时 更 新 数据 的 
再 处 理 。 
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图 7 极 紫 外 光 刻 技术 专利 预警 平台 的 
数据 处 理 过 程 

经 过 数据 处 理 规则 的 制定 , 极 紫 外 光 刻 技术 专 
利 预 警 分 析 平 台 已 经 可 以 很 好 地 实现 自动 采集 、 分 
类 管理 、 实 时 更 新 , 并 具备 良好 的 预警 分 析 数 据 。 
通过 平台 的 分 析 功 能 实现 极 紫 外 光 刻 技术 的 专利 预 
警 分 析 ， 且 分 析 结 果 可 以 灵活 地 定制 在 平台 首页 展 
示 , 实现 导航 。 极 紫外 光 刻 技术 专利 预警 平台 首页 提 
供 了 专利 申请 时 间 、 专 利 申请 人 、 专 利 发 明 人 等 的 预 
警 分 析 导 航模 块 。 本 平台 可 实现 二 维 组 合 分 析 , 用 户 
可 根据 具体 需求 自由 组 合 进行 二 维 分 析 并 可 视 化 ， 
如 图 8 所 示 。 
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图 8 极 紫 外 光 刻 技术 主要 专利 申请 人 随时 间 
变化 趋势 分 析 示 例 


极 紫外 光 刻 技术 专利 预警 平台 的 建设 过 程 表 明 : 
“专题 专利 预警 分 析 平台 ?可 以 定制 化 实现 专题 的 专利 
数据 采集 、 分 类 、 跟 踪 、 分 析 , 并 提供 了 优良 的 预警 
分 析 数 据 结果 。 


5 专题 专利 预警 平台 的 后 续 工 作 


专题 专利 预警 平台 建设 方案 为 需要 进行 专题 长 
期 跟踪 预警 分 析 、 专 题 数据 再 利用 的 专题 研究 、 专 
题 管理 、 专 题 情报 等 工作 提供 一 种 可 行 的 定制 化 解 
决 途径 。 本 文 针 对 专题 专利 预警 平台 的 建设 方案 、 
技术 实现 进行 了 阐述 ,并 基于 “ 极 紫 外 光 刻 专利 预 
警 分 析 平 台 ” 的 建设 过 程 进行 实验 分 析 ， 验证 了 专 
题 专利 预警 平台 建设 方案 的 可 行 性 和 有 效 性 。 基 于 
这 一 思路 开发 的 “专题 专利 预警 平台 ”还 存在 需要 改 
进 和 提高 的 地 方 , 如: 基础 平台 的 优化 、 数 据 处 理 的 
全 自动 化 、 数 据 分 析 的 指标 化 、 内 容 挖掘 的 关联 实 
现 等 ,这 也 是 未 来 在 实践 中 的 工作 重点 。 
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Building Subject-Based 上 arly Warning System for Patents 
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Abstract: [Objective] This paper proposes a Subjectr-Based Early Warning System for Patents, which provides a 
solution to long-term project tracking, early warning analysis, and data reuse. [Methods] Subject-Based Early Warning 
System for Patents integrated some open source systems and tools (e.g.: DSpace, OpenRefine, ECharts, VOSviewer, 
etc.) and developed the functions of data storing, tracking, classifying, cleansing, analyzing and managing. [Results] 
First, we constructed the new System with the subject of extreme ultraviolet lithography. Second, we examined the 
feasibility and effectiveness of the new system. [Limitations] The data processing automation, data analysis indicators, 
and content mining need to be optimized. [Conclusions] The proposed system could track, manage and utilize patent 
information effectively. 


Keywords: Subject-based system “Patent early warning System constraction 


第 29 届 全 国 计 算 机 信息 管理 学 术 研讨 会 在 甘肃 省 张掖 召开 


中 国 科学 技术 情报 学 会 信息 技术 专业 委员 会 于 2016 年 10 月 8 日 -10 日 在 甘肃 省 张掖 市 成 功 举办 了 “第 二 十 九 届 全 国 计 
机 信息 管理 学 术 研 讨 会 ">。 此 次 会 议 由 北京 超 选 智能 科技 研究 院 承办 , 来 自 全国 科 研 院 所 、 高 校 和 企业 的 40 余 名 代表 参加 
会 议 。 本 次 会 议 沿袭 专 委 会 30 多 年 的 学 术 探索 和 技术 引领 传统 ， 以 “推进 科技 信息 服务 技术 的 创业 创新 ”为 主题 , 开展 了 
广泛 、 深 入 的 交流 讨论 。 会 议 分 为 专题 报告 和 论文 交流 两 个 环节 , 来 自 中 国 科学 技术 信息 研究 所 、 中 国 国防 科技 信息 中 心 、 
航空 工业 发 展 研究 中 心 、 解 放 军 南京 政治 学 院 、 北 京 大 学 、 北 京师 范 大 学 等 研究 机 构 和 万 方 数 据 股份 有 限 公司 、 北 京 超 选 智 
能 科技 研究 院 等 企业 的 专家 学 者 ,就 科技 情报 领域 最 新 热点 和 发 展 趋势 进行 了 深入 探讨 。 研讨 内 容 涵盖 了 现代 信息 服务 技术 
发 展 、 知 识 服务 平台 建设 、 知 识 资源 服务 中 心 建设 、 科 技 信息 行业 的 大 数据 工程 应 用 、 智 库 建 设 、 科 技 信息 行业 资源 融合 、 
深度 学 习 和 人 工 智能 技术 在 信息 行业 的 探索 实践 。 在 研讨 过 程 中 , 与 会 专家 就 科技 信息 新 型 技术 应 用 、 科 技 信息 服务 未 来 发 
展 方向 、 科 技 信息 人 才 队 伍 建 设 等 话题 进行 了 深入 交流 并 提出 了 宝贵 建议 。 本 届 会 议 共 选用 优秀 论文 26 篇 , 反映 了 近年 我 
司 科 技 信息 领域 所 取得 的 研究 成 果 ， 具 有 较 高 的 学 术 水 平 ; 能 够 反映 当前 我 国 科技 信息 界 信息 技术 的 应 用 动向 和 最 新 进展 。 
会 议 的 成 功 召 开 , 进一步 推进 了 科技 信息 技术 体系 的 基础 性 研究 ， 积 极 探索 了 科技 信息 技术 的 应 用 与 创新 。 会 议 充分 体现 了 
随 着 国家 创新 驱动 发 展 战略 的 深入 实施 , 科技 信息 行业 必 将 继续 发 扬 信息 技术 应 用 前 沿 的 传统 ， 在 大 力 推进 大 众 创业 、 万 众 
创新 的 新 时 期 继续 发 挥 重 要 作用 。 
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